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fi 2: [目的 / 意义 ] 研 究 并 提出 科学 数据 描述 信息 的 


SBSH 


苗 述 效用 的 对 应 关系 ， 为 科学 数据 描述 的 理论 研究 提供 


新 的 视角 ， 为 数字 环境 下 农业 科学 数据 的 最 优 描述 提供 参考 。 [方法 / 过 程 ] 对 47 名 农业 领域 硕 博 和 


究 生 被 试 的 科学 数据 搜索 


与 相关 性 判断 行为 进行 准 实验 观察 。 首 先 ， 通 过 半 结 术 


d 


访谈 获取 被 试 相关 性 判断 过 程 中 使 


的 农业 科学 数据 描述 项 集合 及 


其 使 用 特征 ; 其 次 ， 分 析 高 信心 水 平 下 用 户 的 描述 项 使 


路 径 ; ROX 


多 元 回归 方法 分 析 描 述 项 对 判断 信心 的 预测 能 力 。 


到 了 11 类 42 项 农业 科学 数据 描述 项 ， 确 定 了 来 源 、 数 据 内 容 、 使 用 与 评价 、 


[结果 / 结论 ] 研究 得 数据 产生 信息 是 具备 高 效 
的 描述 项 ， 得 到 了 高 效用 描述 项 组 合 ， 初 步 分 析 了 用 户 数据 素养 和 数据 利用 目的 对 描述 项 效用 的 影响 。 研 究 成 果 为 科学 数 
据 元 数据 等 具体 的 描述 实践 提供 了 理论 依据 。 
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1 引 


Di} 


在 开放 科学 不 断 发 展 和 社会 经 济 数字 化 进程 快速 
演进 等 因素 的 推动 下 ， 科 学 数据 的 资源 总 量 和 共享 规 
模 持续 快速 增长 ， 已 经 成 为 了 科技 创新 和 社会 经 济 发 
展 的 重要 资源 中 。 农 业 领 域 作为 数据 密集 型 的 研究 领 


户 视角 下 农业 科学 数据 描述 信息 的 “结构 - 效 


"d 


ALS]. 农业 图 书 情报 学 报 , 2022, 34 


R, 横 跨 了 生物 学 、 生 态 学 、 作 物 学 、 气 象 学 、 食 品 
工程 等 多 个 学 科 ， 其 数据 类 型 多 样 且 规模 庞大 。 近 年 
来 ， 国 内 外 建立 了 多 个 农业 科学 数据 库 ， 农 业 科学 数 
据 的 共享 规模 迅速 增长 且 该 领域 人 员 的 数据 共享 和 重 
用 意愿 也 在 不 断 提升 外 。 科 学 数据 共享 总 量 和 重用 需求 
的 快速 增长 带 来 了 数据 发 现 和 复 用 的 挑战 ， 传 统 的 元 
数据 和 新 兴 的 数据 论文 等 数据 描述 形式 不 同 程度 地 其 
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露出 描述 信息 内 容 结构 不 充分 、 难 以 满足 数据 复 用 者 
信息 需求 的 问题 只 ， 如 何 帮 助 复 用 者 理解 数据 、 判 断 
数据 的 可 复 用 性 进而 支持 其 实施 数据 复 用 行为 ， 成 为 
科学 数据 共享 的 核心 议题 吗 ， 也 在 实践 层面 引发 了 各 
类 科学 数据 共享 服务 机 构 和 科技 期 刊 从 不 同 角 度 开展 
的 以 扩 增 科学 数据 描述 信息 为 主体 的 一 系列 描述 增强 
行动 中 。 

然而 ， 此 种 做 法 及 其 所 暴露 的 盲目 性 和 低 效果 表 
明 ， 扩 增 描述 信息 以 增强 描述 效用 (例如 ， 支 持 数 据 
复 用 者 更 准确 地 理解 数据 和 做 出 更 高 质量 的 数据 复 用 
判断 ) 的 实践 缺乏 必要 的 理论 指导 和 支持 ， 做 法 背后 
的 一 系列 科学 问题 一 一 增加 描述 项 (或 调整 描述 信息 
的 内 容 结 构 ) 是 否 必然 导致 其 更 好 地 满足 数据 复 用 者 
的 信息 需求 ( 即 描述 信息 效用 的 提升 )， 哪 些 描 述 项 具 
有 更 高 的 效用 等 中 一 一 都 没有 得 到 有 效 地 探索 和 回答 。 
显然 ， 上述 问题 的 核心 可 概括 为 描述 信息 的 “结构 - 
效用 ”关系 。 其 中 ，“ 结 构 ” 是 描述 信息 的 内 容 组 成 ， 
具体 表现 为 元 数据 中 的 不 同 描述 项 组 合 或 数据 论文 中 
的 篇 章 结构 ; “效用 ”是 科学 数据 描述 信息 对 用 户 理 
解 、 判 断 进 而 施行 复 用 行为 的 支撑 程度 ，“ 结 构 - 效用 ” 
关系 反映 了 结构 变化 对 效用 水 平 的 影响 方向 与 程度 。 

论文 将 聚焦 农业 科学 数据 复 用 者 的 数据 相关 性 判 
断 过 程 ， 通 过 分 析 其 描述 信息 的 使 用 模式 与 特征 探索 
不 同 描述 项 及 其 组 合 的 效用 变化 ， 对 描述 信息 的 “ 结 
构 -效用 ”关系 开展 初步 探索 ， 以 期 为 农业 科学 数据 
描述 实践 发 展 提供 参考 和 指导 。 


2 文献 综述 


2.1 科学 数据 描述 


科学 数据 描述 归 源 于 信息 描述 ， 萌 芽 于 世界 数据 
中 心 早期 “以 物 易 物 ” 式 数据 共享 中 的 数据 编目 ， 其 
后 在 E-Science 和 开放 科学 (特别 是 开放 数据 ) 运动 的 
接续 推动 下 ， 逐 渐 发 展 形成 了 一 个 以 “ 零 描述 ”为 起 
点 ， 包 含 数据 编目 中 、 数 据 档 案外 、 元 数据 中 及 增强 元 
数据 中 、 数 据 论文 中 等 诸多 中 间 形 态 ， 以 理论 上 宫 括 全 
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部 描述 信息 的 “全 描述 ”为 终点 的 描述 谱系 。 该 谱系 
清晰 地 勾画 了 科学 数据 描述 随 数据 共享 发 展 而 呈现 的 
信息 不 断 丰 富 、 形 态 不 断 多 样 的 整体 态势 ， 也 在 一 定 
程度 上 蕴含 了 描述 信息 的 效用 目标 从 数据 治理 向 数据 
利用 环节 迁移 扩充 和 效用 水 平 不 断 提升 的 长 期 趋势 。 
科学 数据 元 数据 是 目前 最 常用 的 描述 方式 ， 国 内 
外 已 建立 了 数量 众多 的 科学 数据 元 数据 标准 体系 。 然 
而 ,一 些 过 于 复杂 的 标准 增加 了 描述 成 本 且 难 以 应 用 
于 基于 Web 的 检索 系统 中 "q。 同 时 ， 现 有 标准 也 仍然 
存在 描述 效用 不 足 的 问题 。 例 如 与 数据 使 用 与 评价 相 
关 的 描述 项 受到 用 户 的 关注 中 咏 且 已 被 诸多 学 术 检 索 系 
统 整合 到 搜索 结果 展示 中 四 ， 但 却 未 包含 在 现 有 的 元 
数据 标准 中 。 科 学 数据 采集 情境 的 描述 信息 与 科学 数据 
特性 相关 ， 但 在 很 多 标准 中 非 必 选项 ， 甚 至 被 忽略 四。 


数据 论文 是 科学 数据 常见 的 描述 方式 之 一 ， 是 用 
于 展示 大 型 数据 集 的 一 种 独特 的 文章 类 型 ， 包含 了 不 


富 的 数据 文档 ， 对 于 数据 重用 而 言 至 关 重要 。KIMP 通 
过 对 24 个 数据 期 刊 的 数据 论文 指南 进行 内 容 分 析 ， 发 
现 他 们 更 多 关注 数据 生产 信息 (数据 收集 、 数 据 生产 
者 和 项 目 ) 和 重用 信息 〈 潜 在 的 重用 和 使 用 条 款 ) ， 而 
这 些 内 容 恰 恰 弥 补 了 元 数据 的 不 足 。 数 据 论文 的 出 现 
有 效 鼓 励 了 个 人 或 机 构 的 数据 共享 ， 让 科学 数据 发 挥 
更 多 的 潜在 价值 "3。 


2.2 科学 数据 描述 信息 使 用 研究 


科学 数据 描述 信息 的 使 用 研究 能 够 发 现 用 户 判 断 
科学 数据 的 认 知 过 程 ， 并 在 此 基础 上 评价 了 描述 信息 
在 用 户 判 断 时 发 挥 的 作用 。 对 于 实现 科学 数据 的 “有 效 
描述 ”具有 重要 意义 ， 也 是 目前 一 个 重要 的 研究 议题 。 

CHIN 和 LANSING 久 通过 与 生物 学 家 们 讨论 数据 
共享 和 重用 的 不 同 场景 确定 了 11 类 关键 特征 或 属性 ， 
包括 常规 数据 集 属 性 、 实 验 属 性 、 数 据 来 源 、 集 合 、 
分 析 和 人 解释、 物理 组 织 、 项 目 组 织 、 科 学 组 织 、 任 务 、 
实验 过 程 和 用 户 社区 ， 形 成 了 一 个 较为 全 面 的 信息 框 
架 。FANIEL 等 中 通过 对 社会 学 、 考 古 学 、 动 物 学 的 研 
究 人 员 进 行 研究 ， 发 现 有 关 数 据 生产 信息 、 存 储 库 信 
息 和 数据 使 用 信息 是 做 出 是 否 重用 数据 决策 的 关键 。 
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KOESTEN 等 中 以 创建 用 户 为 中 心 的 数据 摘要 指南 为 目 
的 ， 通 过 对 69 名 学 生 的 269 份 数据 搜索 日 志 进 行 编 
码 ， 确 定 了 涵盖 评估 数据 集 相 关 性 、 可 用 性 和 质量 等 
不 同方 面 的 数据 集 属性 列表 。 随 后 ， 该 学 者 基于 信息 
搜索 行为 模型 ， 确 定 了 用 户 理 解数 据 过 程 中 存在 的 检 
查 、 接 触 内 容 、 将 数据 与 不 同情 境 相 关联 3 种 活动 模 
式 及 其 相关 的 数据 属性 四 。 
国内 学 者 中 ， 常 颖 聪 等 中 通过 对 植物 学 领域 15 名 
博士 生 及 研究 人 员 进 行 访 谈 ， 并 结合 德尔 非 专家 调查 
法 建立 了 植物 学 基因 表达 实验 元 数据 模型 ， 包 括 实验 
设计 、 实 验 数据 、 实 验 结果 、 科 研 成 果 、 实 验 操 作 、 
数据 访问 和 实验 管理 信息 7 个 模块 。 赵 华 等 外 对 36 名 
农业 领域 的 研究 生 开 展 了 眼 动 实验 和 实验 后 访谈 ， 研 
究 指 出 发 挥 最 大 认 知 价值 的 元 数据 项 依次 是 数据 介绍 
(摘要 )、 数 据 来 源 、 在 线 链 接地 址 和 关键 词 。 除 此 之 
外 ， 数 据 快照 、 同 源 数据 、 相 关 数 据 等 非 元 数据 项 也 
发 挥 着 重要 作用 。 

通过 文献 调研 发 现 ， 目 前 学 者 们 针对 科学 数据 描 
述 信息 的 内 容 及 结构 开展 了 探索 性 和 描述 性 研究 ， 主 
要 集中 于 识别 一 系列 元 数据 元 素 ， 试 图 更 加 全 面 地 描 
述 数据 集 ， 但 很 少 有 研究 关注 所 创建 的 元 数据 标准 是 
否 能 够 促进 数据 重用 ， 即 元 数据 元 素 的 描述 效用 问题 。 
因此 ， 本 研究 将 以 科学 数据 为 信息 载体 ， 通 过 情境 实 
验 、 访 谈 、 问 卷 调查 、 统 计 分 析 等 定性 定量 相 结合 的 
方法 ， 探 究 科 学 数据 描述 信息 与 其 描述 效用 之 间 的 关 
系 ， 为 更 有 效 的 科学 数据 描述 提供 参考 。 


3 理论 框架 及 研究 设计 


3.1 理论 框架 


研究 综合 运用 透镜 模型 、 概 率 心 理 模型 和 适应 性 
决策 框架 3 个 关键 模型 ， 建 立 了 描述 信息 结构 与 描述 
效用 之 间 关 系 的 概念 模型 。 透 镜 模型 将 人 类 判断 过 程 
中 的 要 素 分 解 为 客观 事物 特征 (US, Criterion), A 
类 对 这 些 特征 的 感知 (RR, Cues) 和 由 此 形成 的 主 
观 判 断 (Subject Judgments) 3 个 部 分 ， 构 建 了 从 感知 
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信息 到 判断 形成 的 认 知 过 程 外 。 概 率 心理 模型 (The 
Theory of Probabilistic Mental Models，PMM) 与 透镜 模 
型 理论 密切 相关 ， 其 基本 观点 是 人 们 判断 信心 的 形成 
与 判断 结果 的 产生 既 同 时 发 生 ， 也 依靠 同样 线索 。 
PPM 理论 中 的 “线索 有 效 性 (Cue Validity) ”概念 与 
透镜 模型 中 线索 的 “生态 效 度 (Ecological Validity) " 
概念 外 具有 较 大 相似 性 。 适 应 性 决策 行为 框架 (Adap- 
tive Decision Making) 认为 决策 者 的 目标 是 最 大 限度 地 
提高 决策 的 准确 性 ， 同 时 最 小 化 所 投入 的 认 知 努力 中。 
该 理论 解释 了 本 研究 探索 的 高 效用 描述 项 是 用 户 权衡 的 
结果 ， 且 描述 信息 的 使 用 特征 会 受到 任务 情境 的 影响 。 

综合 上 述 观 点 构建 了 本 研究 的 理论 模型 (图 1)。 
透镜 模型 提供 了 整体 框架 ， 将 描述 信息 感知 与 价值 判 
断 和 信心 达成 等 分 为 4 个 认 知 阶段 。 其 中 ， 描 述 项 是 
科学 数据 描述 信息 的 概念 化 ， 具 体操 作为 用 户 在 实验 
中 接收 的 具有 描述 功能 的 语义 视觉 单元 ;中间 是 用 户 
头脑 中 进行 认 知 加 工 的 过 程 ， 包 含 线索 ( 即 用 户 对 描 
述 项 的 感知 ) 和 标准 ( 即 用 户 赖 以 进行 价值 判断 的 个 
性 化 、 工 具 性 认 知 结构 ) 两 个 要 素 ; 判断 是 用 户 对 目 
标 数 据 集 相关 性 的 感知 ， 具 体操 作为 用 户 对 当前 数据 
的 相关 程度 的 二 值 判断 ;判断 信心 反映 用 户 对 其 判断 
结果 的 信心 程度 ， 是 描述 效用 的 概念 化 ， 在 实验 中 通 
过 李 克 特 量 表 取 得 。 


[判断 者 、 任 务 情境 等 
we 影 ee. 
响 
ES Le eE 相关 
描述 项 刺激 i 线索 加 工 | 标准 | 不 相关 
标题 作者 出 名 主题 性 判断 信心 
方法 新 Jai 
" ee 信心 程度 为 5 
作者 时 间 太 旧 创新 性 信心 程度 为 4 
EY 信 程度 为 1 
发 布 时 间 机 构 权 威 "mT E 
数据 格式 


图 1 科学 数据 描述 信息 的 “结构 - 效用 ”模型 
Fig.1 Structure-utility model of descriptive information of 


scientific data 


模型 引出 了 当前 研究 力图 回答 的 3 个 问题 : OF 
业 科学 数据 复 用 者 使 用 哪些 描述 项 及 使 用 特征 是 什么 ? 
@@ 不 同 描述 项 或 其 组 合 的 描述 效用 如 何 ? 四 影响 描述 
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效用 的 因素 有 哪些 以 及 如 何 影响 ”本 研究 将 通过 回答 
这 3 个 问题 建立 描述 信息 结构 与 效用 之 间 的 定性 关系 。 


3.2 实验 设计 


研究 人 员 基 于 科学 数据 相关 性 判断 场景 构建 了 观 
察 实验 ， 具 体 包 括 4 个 步骤 (图 2)。 
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Xl 访谈 提纲 主要 内 容 
Table 1 The main content ofthe interview outline 


访谈 提纲 


i 数据 相关 MEME 
F| 被 试 基础 WS | | 情境 再 入 式 | ,| 描述 信息 重 | ,| 结 
RE | 给 | ?| 信息 采集 [| A 访谈 “| 让 要 程度 评价 [Ol ae 
使 用 眼 动 
A 量 表 收 
内 容 BORER | | OER | | 获取 被 试 对 | | 集 被 试 对 不 
等 基本 信 使 用 量 表 于 注视 点 的 同 描述 信息 
a 记录 被 二 认 知 解释 — 
i 主观 评 
判断 信心 


图 2 实验 过 程 


Fig.2 Experimental process 


(1) 实验 前 被 试 基础 信息 采集 。 使 用 调查 问卷 采 
集 被 试 3 个 方面 的 信息 ,包括 : 专业 背景 、 学 历 等 
个 人 基本 信息 ; 思科 学 数据 检索 频率 、 使 用 频率 、 检 
索 平台 等 科学 数据 使 用 情况 ; 回 待 检索 主题 、 数 据 利 
用 目的 等 检索 相关 信息 。 

(2) 科学 数据 相关 性 判断 及 描述 项 使 用 观察 。 每 
名 被 试 任 选 其 熟悉 的 1 个 科学 数据 检索 平台 (中 英文 
不 限 ) 作为 操作 环境 ， 自 选 检索 主题 进行 检索 并 逐一 
完成 10 次 科学 数据 集 相关 性 判断 (相关 /不 相关 )， 检 
索 与 判断 均 不 限时 。 主 试 采 用 Eye-Link2000 记录 仪 全 
程 记录 被 试 每 次 判断 的 眼 动 数 据 (注视 点 和 了 眼 动 轨 
迹 )， 同 时 采用 SR Research Screen Recorder1.0.0 录 屏 
软件 全 程 记录 被 试 的 操作 。 每 次 判断 完成 后 被 试 需要 
通过 5 档 量 表 (1= 完全 没有 信心 ，… ，5= 完全 自信 ) 
给 出 其 判断 信心 。 

(3) 相关 性 判断 后 的 情境 再 人 式 访 谈 。 每 次 判断 
和 判断 信心 量 表 填 写 完成 后 ， 主 试 与 被 试 共同 观看 被 
试 的 判断 全 过 程 录像 与 眼 动 轨迹 ， 就 关注 点 和 有 眼 动 轨 
迹 背 后 的 认 知 加 工 进行 访谈 ， 访 谈 提纲 详细 表 1， 并 全 
程 录音 。 

(4) 描述 信息 重要 程度 评价 。 访 谈 结束 后 ， 被 试 
需 通过 5 档 量 表 (1= 完全 不 重要 ，... ，5= 非常 重要 ) 
给 出 不 同 描述 信息 的 重要 程度 得 分 。 
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1. 你 认为 该 数据 集 相 关 /不 相关 是 基于 什么 信息 判断 的 ? 
2. 为 什么 要 关注 这 个 区 域 ? 这 里 给 你 带 来 了 什么 信息 ? 
3. 你 认为 这 个 数据 集 对 你 是 否 有 用 ? 具体 用 途 是 什么 ? 
4. 目 前 这 些 信息 是 否 足够 使 你 做 出 判断 ?还 需要 哪些 信息 ? 


研究 人 员 通 过 社交 平台 微 信 ， 在 中 国 农业 科学 院 
研究 生 院 硕 博 各 年 级 的 学 生 群 组 中 发 布 被 试 招募 通知 ， 
遂 选 数据 查询 和 使 用 经 验 较 为 丰富 且 来 自 多 个 学 科 的 
研究 生 。 研 究 最 终 选 取 来 自 中 国 农业 科学 院 14 个 研究 
所 的 47 名 研究 生 ， 其 中 硕士 研究 生 40 人 ， 博 士 研究 
生 7 人 ; 男性 15 A, 女性 32 人 。 被 试 学 科 分 布 如 表 2 
所 示 。 为 激励 学 生 参 与 实验 ， 研 究 人 员 为 每 位 被 试 发 
放 了 100 元 的 津贴 。 


表 2 被 试 的 学 科 分 布 


Table 2 Discipline distribution of subjects 


所 在 学 科 频数 /次 百分比 /% 
食品 科学 与 工程 12 25.5 
农林 经 济 管理 8 17.0 
生物 学 7 14.9 
植物 保护 7 14.9 
园艺 学 5 10.6 
作物 学 3 6.4 
农业 工程 1 2.1 
大 气 科 学 1 2.1 
农业 资源 利 1 2.1 
畜牧 学 1 2.1 
测绘 科学 与 技术 1 24 
合计 47 100.0 


3.3 数据 收集 和 处 理 


3.3.1 访谈 数据 收集 和 处 理 

研究 共 收 集 到 47 份 访谈 录音 ， 经 转录 后 得 到 超过 
16 万 字 的 编码 原始 材料 。 研 究 人 员 依据 FANIEL 等 中 
fll KOESTEN 等 中 的 研究 及 科学 数据 元 数据 标准 建立 
了 初始 编码 表 ， 使 用 Nvivoll 软件 进行 内 容 分 析 并 在 
编码 过 程 中 对 初始 编码 表 进 行 修改 和 扩充 。 两 位 编码 
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员 分 析 了 43 份 访谈 文本 并 进行 了 交叉 检验 ， 同 时 预 留 
了 4 份 访谈 文本 作为 饱和 度 校 验 样本 。 饱 和 度 检验 表 
明 ， 编 码 结果 均 能 纳入 已 形成 的 概念 中 ， 编 码 实例 详 
见 表 3。 
3.3.2 问卷 数据 收集 和 处 理 

本 实验 收 到 47 名 被 试 的 实验 前 、 实 验 后 问卷 ， 所 
有 问卷 均 在 实验 环境 中 填写 ， 无 重复 答题 的 情况 且 被 
试 的 答题 时 间 均 在 正常 范围 内 ， 因 此 均 为 有 效 问卷 。 
对 问卷 的 处 理 主要 包括 两 个 部 分 : 外 使 用 实验 前 问卷 
收集 的 被 试 学 历 背景 、 数 据 获取 能 力 (检索 频率 、 常 
用 的 检索 平台 数量 )、 数 据 处 理 与 分 析 能 力 (使 用 频 
AR) 3 类 指标 ， 并 为 每 类 指标 赋予 相同 的 权重 ， 将 被 试 
的 数据 素养 水 平 划分 为 高 、 中 、 低 3 个 等 级 ; 根据 数 
据 利用 目的 ， 将 被 试 划 分 为 将 数据 作为 参考 和 将 数据 
加 工 应 用 两 类 ， 具 体 分 布 如 表 4、 表 5 Br, OMA 
被 试 的 情境 实验 中 随机 挑选 3 条 数据 集 条 目 ， 共 得 到 
140 条 完整 记录 。 结 合 编码 结果 确定 被 试 在 每 条 数据 的 
判断 过 程 中 所 关注 的 描述 项 ， 关 注 到 的 描述 项 被 赋予 
实验 后 问卷 中 被 试 对 描述 项 重要 程度 的 打分 ， 未 关注 
的 均 为 1 分 。 


4 结 果 


4.1 农业 科学 数据 描述 项 集合 及 其 使 用 频次 


研究 得 到 了 42 个 描述 项 ， 并 依据 编码 表 将 其 归纳 于 
11 个 类 别 ， 描 述 项 的 具体 内 涵 与 使 用 频次 如 表 6 所 示 。 
4.1.1 高 使 用 频次 描述 项 

在 11 个 类 别 中 ， 用 户 使 用 频次 最 高 的 5 个 类 别 依 
次 为 主题 (23.896) , 、 数 据 内 容 (23.7%)、 整 体 描述 
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3&4 不 同 数据 素养 水 平 的 被 试 分 布 
Table 4 Distribution of subjects with different levels of 


data literacy 


数据 素养 水 平 频数 /次 百分比 /% 
高 13 27.6 
中 24 51.1 
低 10 21.3 
合计 47 100.0 


表 5 不 同 数据 利用 目的 的 被 试 分 布 


Table $ Distribution of subjects with different data 


utilization purposes 


数据 利用 目的 频数 /次 百分比 % 
作为 参考 34 72.3 
加 工 应 13 27.7 
合计 47 100.0 


(17.3%)、 来 源 (13.5%) 和 数据 产生 信息 〈8.5%)， 合 
计 为 86.8%， 其 余 描述 项 的 个 体 使 用 频次 占 总 频次 比 
例 均 不 足 5%, 合计 频次 占 总 频次 比例 不 足 15%。 在 
42 个 描述 项 中 ， 使 用 频次 排名 前 五 的 依次 是 标题 、 数 
据 值 、 摘 要 、 数 据 产生 方法 和 实验 结果 。 

(1) 主题 。 反 映 目 标 科 学 数据 集 主题 的 描述 项 。 
所 有 47 位 用 户 均 提 及 该 类 别 中 的 描述 项 。 用 户 在 选择 
一 个 数据 集 时 ， 首 先 需要 判断 数据 的 主题 相关 性 外。 
当主 题 相关 时 ， 用 户 通 常会 继续 寻找 其 他 信息 从 而 做 
出 进一步 判断 ， 若 主题 无 关 ， 则 会 终止 评估 过 程 并 做 
出 放弃 行为 。 正 如 用 户 所 说 “看 完 标 题 后 觉得 挺 相 关 
的 ， 但 需要 再 看 更 多 的 信息 进一步 确定 ”“ 看 完 题 目 
可 确定 不 是 我 想 找 的 ， 所 以 没有 再 看 摘要 ”。 此 外 ， 由 
于 同一 研究 主题 在 不 同学 科 之 间 存 在 差异 ， 因 而 用 户 
也 会 进一步 关注 数据 产生 的 学 科 领 域 。 例 如 “该 数据 


表 3 编码 实例 
Table 3 Examples of coding process 
访谈 文本 描述 项 
户 9: 我 觉得 偏 农业 类 的 期 刊 的 质量 会 好 一 点 ， 像 中 国 农业 学 报 、 中 国 农业 气象 比较 权威 来 源 期 刊 
户 27: 因为 收集 数据 的 时 间 范 围 才 到 07 年 ， 这 篇 论文 发 布 年 份 太 老 了 ， 对 我 没 发 布 时 间 、 时 间 范 围 
户 21: 我 觉得 这 篇 更 好 的 是 它 设置 了 3 个 不 同 浓度 ， 比 只 有 一 个 梯度 的 要 好 ， 做 的 比较 深入 数据 产生 方法 
户 2: 数据 的 值 跟 常识 没有 太 大 出 入 就 觉得 是 合格 的 数据 值 
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表 6 农业 科学 数据 描述 项 及 其 使 用 频次 统计 


Table 6 Descriptive items of agricultural scientific data and their use frequency statistics 


ChinaXiv 合 作 期 刊 


描述 项 类 别 定义 描述 项 频次 /次 EDEA ”合计 /% 

主题 反映 目标 科学 数据 集 的 主题 标题 213 15.91 23.8 
(Subject ) 主题 概念 47 3.51 
关键 词 29 2.17 
图 表 名 称 22 1.64 
学 科 领 域 8 0.60 

数据 内 容 反映 目标 科学 数据 集 的 数据 或 图 表 本 身 数据 值 170 12.70 23.7 
(Data) 实验 结果 80 5.97 
数据 集 表 头 32 2.39 
变量 指标 28 2.09 
图 表 横 纵 坐 标 8 0.60 

整体 描述 反映 目标 科学 数据 集 的 具体 内 容 LES 158 11.80 173 
COverall Description) 数据 集 说 明 73 5.45 

来 源 反映 目标 科学 数据 集 的 来 源 期 刊 、 机 构 或 作者 情况 来 源 期 刊 68 5.08 13.5 
(Source) 机 构 36 2.69 
数据 来 源 18 1.34 
作者 18 1.34 
影响 因子 16 1.19 
发 布 平台 11 0.82 
基金 资助 7 0.52 
38 TU 2l 4 0.30 
作者 研究 方向 3 0.22 

数据 产生 信息 反映 目标 科学 数据 集 的 产生 过 程 和 分 析 方 法 数据 产生 方法 82 6.12 8.5 
(Data Production Information ) 实验 材料 13 0.97 
数据 分 析 方法 13 0.97 
研究 思路 6 0.45 

范围 反映 目标 科学 数据 集 覆 盖 的 时 间 、 空 间 范 围 TRIS FB] 37 2.76 4.1 
(Coverage) 空间 范围 18 1.34 

使 用 与 评价 反映 目标 科学 数据 集 的 传播 情况 和 用 户 评价 引用 次 数 36 2.69 3.7 
(Use and Evaluation) 下 载 次 数 8 0.60 
获取 限制 3 0.22 
户 评价 2 0.15 

时 间 反映 目标 科学 数据 集 的 时 效 性 发 布 时 间 29 2.17 2.5 
(Date) 数据 更 新 频率 4 0.30 

物理 特性 反映 目标 科学 数据 集 的 格式 、 类 型 、 长 度 、 大 小 数据 文件 大 小 13 0.97 1.3 
(Physical Traits) 图 表 数 量 3 0.22 
数据 格式 2 0.15 

质量 反映 目标 科学 数据 集 的 质量 人 工 审 核 标记 5 0.37 0.8 
CQuality) 数据 质量 描述 3 0.22 
数据 缺失 情况 说 明 3 0.22 

与 其 他 信息 的 关联 情况 反映 目标 科学 数据 集 的 关联 信息 相似 数据 4 0.30 0.7 
(Related Information) 参考 文献 4 0.30 
相关 数据 库 信 息 2 0.15 
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集 里 涉及 很 多 化 学 方面 的 内 容 ， 但 我 不 是 研究 化 学 的 ， 
所 以 不 需要 ”。 

(2) 数据 内 容 。 反 映 目 标 科学 数据 集 的 数据 或 图 
表 本 身 的 描述 项 。 共 有 42 位 用 户 提 及 该 类 别 中 的 描述 
项 。 这 些 用 户 并 非 查看 了 数据 集 全 集 ， 而 是 仅 关注 了 
图 表 的 表 头 、 变 量 指标 或 某 个 结论 性 的 数据 值 。 表 头 
是 用 户 使 用 最 普遍 的 数据 属性 之 一 ， 特 别 在 结构 化 数 
据 中 会 受到 更 多 的 关注 四。 例如 “我 一 般 先 关 注 表 头 ， 
如 果 表 头 相关 ， 我 会 再 看 具体 数值 ”。 此 外 ， 结 论 性 数 
据 值 被 提 及 的 频率 远 高 于 其 他 描述 项 ， 用 户 和 希望 通过 
评估 数据 值 是 否 符合 内 心 预 期 的 范围 来 评价 数据 的 准 
确 性 。 例 如 “一 般 看 配 比 和 功能 系数 ， 我 有 一 个 比较 
区 间 ， 功 能 系数 比 120 大 的 越 多 ， 说 明 歼 果 好 ”“ 我 
看 氨基 酸 序列 的 长 度 ， 同 源 家 族长 度 都 相近 ， 我 会 根 
据 这 个 值 判断 是 否 再 进一步 检查 ”。 

(3) 整体 描述 。 反 映 目 标 科学 数据 集 具体 内 容 的 
描述 项 。43 位 用 户 提 及 该 类 别 中 的 描述 项 ， 且 几乎 所 
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的 信息 ， 包 括 整体 的 研究 思路 、 收 集 数据 的 实验 设置 
等 。 当 用 户 认 为 数据 生产 者 所 使 用 的 方法 与 自己 的 实 
验方 法 类 似 时 ， 往 往 会 对 该 数据 集 的 相关 程度 给 予 较 
高 评价 。 例 如 “实验 方法 、 还 有 抗菌 肽 、 分 子 设计 等 ， 
跟 我 的 研究 相关 性 比较 高 "。 同 样 ， 该 类 别 还 有 助 于 用 
户 评估 数据 集 的 新 颖 性 ， 相 较 于 陈旧 的 方法 而 言 ， 使 
用 更 加 新 颖 、 创 新 的 方法 所 产生 的 数据 通常 会 得 到 用 
户 较 高 的 评价 。“ 他 的 方法 比较 创新 ， 而 且 它 的 检测 
线 比 较 低 ， 得 出 的 规律 是 挺 好 的 ”。 
此 外 ， 用 户 还 会 对 数据 产生 过 程 的 规范 性 、 实 验 
设置 的 合理 性 做 出 评价 ， 当 用 户 对 数据 产生 过 程 存在 
质疑 时 ， 则 会 降低 其 评价 。 例 如 “这 是 实际 生产 中 去 做 
的 ， 跟 我 的 不 相关 ， 并 且 我 认为 这 种 方式 不 太 正 规 ”。 
4.1.2 其 他 描述 项 

除 上 文中 介绍 的 5 类 描述 项 外 ， 其 余 6 个 类 别 在 
部 分 用 户 的 判断 过 程 中 也 发 挥 了 作用 。 

(1) 范围 。 反 映 目 标 科 学 数据 集 覆 盖 的 时 间 、 空 


有 使 用 论文 支撑 性 数据 的 用 户 都 提 到 了 摘要 。 尽 管 大 
多 数 数据 集 都 具有 标题 、 关 键 词 等 元 数据 ， 但 这 类 简 
短 词汇 类 型 的 元 数据 通常 无 法 提供 足够 的 内 容 让 用 户 
判断 数据 是 否 有 用 趾 ， 因 此 ， 文 本 类 型 的 摘要 或 数据 
集 说 明 则 至 关 重 要 ， 能 够 提供 更 丰富 的 信息 帮助 用 户 
评估 数据 的 相关 性 、 可 用 性 和 质量 四 。 例 如 “这 个 数 
据 是 浏览 了 摘要 后 发 现 研 究 对 象 和 研究 方法 都 是 非常 


相关 的 ”“ 只 看 题目 是 相关 的 ， 但 是 摘要 没有 我 想 要 
的 信息 ”。 


(4) 来 源 。 反 映 目标 科学 数据 集 的 来 源 期 刊 、 机 
构 或 作者 情况 的 描述 项 。32 位 用 户 提 及 该 类 别 中 的 描 
述 项 。 与 数据 集 来 源 有 关 的 信息 有 助 于 用 户 评估 数据 
集 的 质量 、 权 威 性 或 可 信和 度 中 。 例 如 用 户 提 到 “我 关 
注 了 机 构 ， 这 个 学 校 在 这 方面 的 研究 位 于 领域 前 沿 ， 
老师 也 很 有 名 ”“ 根 据 期 刊 名 称 可 以 判断 期 刊 的 好 坏 ， 
也 就 能 判断 是 否 要 下 载 ” “我 认为 国家 统计 局 的 数据 
相对 权威 一 些 ”。 

(5) 数据 产生 信息 。 反 映 目 标 科 学 数据 集 的 产生 
过 程 和 分 析 方 法 的 描述 项 。39 名 用 户 提 及 该 类 别 中 的 
描述 项 。 文 献 中 的 数据 提供 了 更 多 的 与 数据 产生 相关 


间 范 围 的 描述 项 。24 位 用 户 提 及 该 类 别 中 的 描述 项 。 
空间 范围 包括 收集 数据 的 地 点 、 层 级 (例如 国家 、 省 、 
市 等 )， 尤 其 当 用 户 的 研究 与 地 理 环 境 相关 时 ， 会 对 该 
描述 项 更 感 兴 “ 它 是 一 个 县 域 层面 的 考虑 ， 我 想 
要 的 全 国 类 的 ， 所 以 我 选择 放弃 ”"。 时 间 范 围 能 够 让 用 
户 第 选 出 他 们 不 感 兴趣 的 数据 集 ， 如 果 时 间 覆 盖 范 转 
不 是 他 们 所 需 的 ， 用 户 则 很 容易 做 出 放弃 的 决定 。 但 
在 更 多 情况 下 ， 当 用 户 发 现 数据 仅 覆 盖 了 他 们 所 需 的 
部 分 时 期 时 ， 仍 然 会 选择 下 载 该 数据 集 并 之 后 再 自行 
补充 。 例 如 “数据 不 新 肯定 有 影响 ， 但 是 我 部 分 可 以 
参考 它 ， 我 的 数据 集会 涵盖 很 多 年 份 ， 它 是 我 的 一 个 
TR”, 

(2) 使 用 与 评价 。 反 映 目 标 科 学 数据 集 的 传播 情 
况 和 用 户 评价 的 描述 项 。26 位 用 户 提 及 该 类 别 中 的 描 
述 项 。 与 数据 使 用 情况 相关 的 信息 反映 了 同一 学 科 群 
体 中 人 们 对 该 数据 集 的 认可 和 接受 水 平 。 其 中 ， 提 及 
频次 最 高 的 描述 项 是 引用 次 数 ， 一 般 在 用 户 评价 数据 
集 的 质量 时 出 现 。 例 如 “引用 次 数 也 能 说 明 它 的 质量 、 
权威 性 ”"。 当 然 ， 这 类 描述 项 在 用 户 判断 中 并 不 会 起 到 
决定 性 作用 ， 用 户 还 会 综合 考虑 数据 集 的 发 布 时 间 、 
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学 科 领 域 特性 等 因素 。 

此 外 ， 部 分 用 户 指 出 他 人 对 于 数据 的 评价 能 提供 
更 多 的 信息 ， 尤 其 是 当 自 己 的 判断 还 不 大 确定 时 。 
“如 果 数 据 有 问题 ， 会 有 网 友 评论 数据 不 能 使 用 或 者 存 
在 错误 ， 这 些 评 论 会 影响 我 对 它 的 判断 ”。 评 价 信息 能 
够 帮助 用 户 提前 评估 目标 信息 的 有 用 性 和 质量 所， 使 
用 户 在 付出 较 少 认 知 努力 的 情况 下 做 出 信心 充分 的 判 
wi, 

(3) 时 间 。 反 映 目标 科学 数据 集 的 时 效 性 的 描述 
项 。20 位 用 户 提 及 该 类 别 中 的 描述 项 。 同 一 个 数据 集 
在 不 同 的 时 间 下 具有 不 同 的 价值 。 在 很 多 研究 主题 下 ， 
用 户 都 倾向 于 获取 最 新 的 数据 ， 而 较为 陈旧 的 数据 则 
会 被 放弃 。 例 如 “很 早 之 前 的 数据 就 不 大 会 考虑 ， 一 
般 都 是 要 最 新 的 ”“ 我 没有 找到 我 想 要 的 ， 这 个 数据 
没有 及 时 更 新 ”。 

(4) 物理 特性 。 反 映 目 标 科学 数据 集 的 格式 、 类 
型 、 大 小 的 描述 项 。7 位 用 户 提 及 该 类 别 中 的 描述 项 ， 
它们 不 表达 数据 集 的 主题 或 内 容 ， 而 是 侧重 于 数据 集 
的 物理 特征 。 在 本 研究 中 ， 用 户 大 多 通过 数据 格式 判 
断 数据 集 是 否 可 用 ， 通 过 数据 大 小 评估 数据 的 质量 和 
缺失 情况 。 正 如 用 户 提 到 “这 个 是 时 间 序 列 的 ， 是 我 
想 要 序列 性 的 数据 ”“ 文 件 大 小 能 够 让 我 判断 数据 下 
载 下 来 是 不 是 我 想 要 的 ， 如 果 它 很 小 就 说 明 数 据 可 能 
会 存在 缺失 ”。 

(5) 质量 。 反 映 目标 科学 数据 集 质 量 的 描述 项 。7 
位 用 户 提 及 该 类 别 中 的 描述 项 ， 且 均 为 在 数据 共享 平 
台中 检索 数据 时 提 及 。 这 种 情况 的 出 现 与 平台 本 身 有 
关 ， 一 方面 是 数据 共享 平台 中 可 能 会 包含 数据 质量 说 
明文 档 ， 而 文献 平台 中 没有 ; 另 一 方面 文献 出 版 已 经 
过 同行 评审 ， 因 而 不 会 再 带 有 人 工 审核 标志 ， 但 在 数 
据 共 亭 平台 中 这 些 信息 都 是 对 数据 集 质量 最 直接 的 说 
明 。“ 质 量 描述 会 介绍 数据 的 缺失 情况 和 数据 质量 文 
档 的 查看 位 置 ， 我 会 关注 数据 缺失 情况 ， 但 需要 看 具 
体 的 质量 文档 才能 判断 的 ”“ 这 个 数据 集 没 有 出 现 人 
工 审核 标志 ， 我 觉得 没有 必要 点 进去 看 ”。 

(6) 与 其 他 信息 的 关联 情况 。 反 映 目标 科学 数据 
集 关 联 信息 的 描述 项 。5 位 用 户 提 及 该 类 别 中 的 描述 
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项 。 部 分 用 户 使 用 关联 信息 来 辅助 评估 数据 的 质量 ， 
当 他 们 认为 参考 文献 的 数量 丰富 或 质量 较 高 时 ， 会 提 
升 对 整体 研究 质量 的 判断 。 例 如 用 户 在 访谈 中 提 到 
“参考 文献 的 数量 能 够 表现 出 他 一 部 分 质量 ”“ 当 与 某 
个 蛋白 质 相 关 的 数据 库 数 量 较 多 时 ， 说 明 更 多 人 对 其 
进行 了 人 研究， 数据 的 可 信 度 则 更 高 ”。 


4.2 高 效用 描述 项 组 合 分 析 


通过 分 析 用 户 在 科学 数据 相关 性 判断 过 程 中 描述 
项 的 使 用 ， 发 现 绝 大 多 数 情况 下 用 户 需 依赖 两 个 及 以 
上 的 描述 项 做 出 决策 。 因 此 ， 本 节 将 通过 分 析 用 户 的 
描述 项 使 用 路 径 ， 识 别 具 备 高 效用 (支持 用 户 做 出 高 
信心 水 平 的 判断 ) 的 描述 项 组 合 。 本 文选 取 用 户 信 心 
充分 的 判断 过 程 (判断 信心 为 4 分 及 以 上 ) 进行 描述 
项 使 用 路 径 分 析 ， 发 现 所 有 用 户 均 会 首先 关注 主题 或 
整体 描述 类 别 中 的 属性 ， 以 判断 当前 数据 的 主题 相关 
性 。 因 此 ， 当 用 户 除 关 注 主题 或 整体 描述 外 还 使 用 了 
其 他 描述 信息 时 ， 主 题 和 整体 描述 被 归 为 一 类 进行 统 
计 ， 以 消除 不 同 路 径 之 间 的 内 涵 重 复 。 

研究 人 员 对 判断 结果 为 “相关 ”的 访谈 记录 进行 
编码 ， 共 得 到 25 条 使 用 路 径 ， 其 中 合计 频次 占 比 约 
80% 的 前 8 种 使 用 路 径 如 表 7 所 示 。 其 中 ， 使 用 频次 
最 高 的 前 3 种 描述 项 组 合 依次 为 主题 或 整体 描述 、 数 
据 产 生 信息 、 数 据 内 容 ;主题 或 整体 描述 、 数 据 内 容 ; 
主题 或 整体 描述 、 来 源 、 数 据 产 生 信息 、 数 据 内 容 。 
值得 注意 的 是 ，68.75% 的 用 户 在 检查 完 数据 内 容 相关 
描述 项 后 即 可 结束 判断 过 程 ， 由 此 可 推断 数据 内 容 能 
够 提供 给 用 户 更 直观 、 更 具 说 服 力 的 信息 ， 对 于 用 户 
判断 信心 有 显著 影响 。 

研究 人 员 对 判断 结果 为 “不 相关 ”的 访谈 记录 进 
行 编码 ， 共 得 到 16 条 使 用 路 径 ， 其 中 合计 频次 占 比 约 
80% 的 前 6 种 使 用 路 径 如 表 8 所 示 。 与 做 出 一 个 “ 相 
关 ” 的 判断 相 比 ， 用 户 做 出 一 个 “不 相关 ”的 判断 往 
往 只 需要 较 少 的 信息 即 可 达到 较 高 的 信心 水 平 ， 且 有 
22.5% 的 用 户 只 需要 依据 主题 或 主题 和 整体 描述 信息 即 
可 决定 放弃 该 数据 集 。 此 外 ， 没 有 用 户 关 注 到 使 用 与 
评价 信息 和 与 其 他 信息 的 关联 情况 两 个 类 别 ， 这 两 类 
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表 7 高 信心 水 平 下 的 描述 项 使 用 路 径 (判断 结果 为 “相关 ”时 ) 


Table 7 Descriptive items usage path at high confidence level (when the result is "relevant") 


描述 项 使 用 路 径 频数 /次 百分比 /% 
主题 (整体 描述 ) 一 数据 产生 信息 一 数据 内 容 32 20.9 
主题 (整体 描述 ) 一 数据 内 容 25 16.3 
主题 (整体 描述 ) 一 来 源 一 数据 产生 信息 一 数据 内 容 21 13.7 
主题 〈 整 体 描述 ) 一 来 源 16 10.5 
主题 一 整体 描述 9 5.9 
主题 (整体 描述 ) 一 来 源 一 数据 内 容 7 4.6 
主题 (整体 描述 ) 一 范围 一 来 源 一 数据 内 容 6 3.9 
主题 (整体 描述 ) 一 时 间 一 来 源 一 数据 产生 信息 一 数据 内 容 6 3.9 
合计 122 79.7 
表 8 高 信心 水 平 下 的 描述 项 使 用 路 径 (判断 结果 为 “不 相关 ”时 ) 
Table 8 Descriptive items usage path at high confidence level (when the result is "irrelevant") 
描述 项 使 用 路 径 频数 /次 百分比 /% 
主题 (整体 描述 ) 一 数据 产生 信息 17 23.6 
主题 (整体 描述 ) 一 数据 内 容 13 18.1 
主题 一 整体 描述 10 13.9 
主题 (整体 描述 ) 一 数据 产生 信息 一 数据 内 容 7 9.7 
主题 6 8.3 
主题 (整体 描述 ) 一 来 源 5 6.9 
合计 58 80.6 


信息 只 在 判断 结果 为 “相关 ”的 场景 下 发 挥 作用 。 
4.3 高 效用 描述 项 及 其 对 判断 信心 的 影响 


4.3.1 描述 项 对 判断 信心 的 整体 影响 

对 描述 项 与 用 户 判 断 信 心 的 回归 分 析 表 明 11 类 描 
述 项 对 判断 信心 变化 影响 显著 ，R=0.31,， p<0.01。 如 
表 9 ran, 在 11 个 类 别 中 ， 来源、 数据 内 容 、 使 用 与 
评价 、 数 据 产生 信息 被 认为 是 用 户 判 断 信 心 的 显著 预 
测 因素 ， 且 均 为 正 相 关 (在 a=0.05 的 水 平 上 )。 主 题 
和 整体 描述 类 别 在 判断 过 程 中 的 普遍 使 用 使 其 无 法 在 
统计 学 层面 体现 出 对 判断 信心 的 显著 预测 性 。 来 源 、 


4.3.2 不 同 数据 素养 水 平 下 描述 项 对 判断 信心 的 影响 

在 影响 用 户 判 断 过 程 中 的 因素 中 ， 判 断 者 被 诸多 
学 者 认为 是 影响 最 大 的 因素 外， 包含 判断 者 的 学 科 背 
景 四 、 专 业 水 平 中 、 判 断 能 力 四 等 。 对 于 科学 数据 而 
言 ， 科 学 数据 素养 这 一 概念 很 好 地 概括 了 科学 数据 用 
户 收集 、 加 工 、 管 理 、 评 价 和 利用 数据 的 能 力 与 知 
识 中 。 本 文 使 用 多 元 回归 分 析 检 验 不 同 数 据 素养 水 平 
的 用 户 所 依赖 的 描述 信息 的 差异 性 。 结 果 说 明 ， 对 于 
科学 数据 素养 较 低 的 用 户 ， 影 响 其 判断 信心 的 重要 因 
素 是 数据 来 源 (R=0.28，p<0.01); 对 于 中 等 水 平 的 用 
户 ， 影 响 其 判断 信心 的 重要 因素 是 使 用 与 评价 和 数据 


数据 内 容 、 数 据 产生 信息 3 类 描述 信息 对 于 判断 信心 
的 正 向 影响 解释 了 它们 对 于 科学 数据 用 户 的 必要 性 。 
使 用 与 评价 信息 的 使 用 频率 较 低 ， 但 在 面临 特定 用 户 
和 特定 数据 利用 目的 的 情况 下 对 判断 信心 具有 显著 的 
正 癌 影响 。 


产生 信息 (R=0.27，p<0.05); 对 于 高 水 平 的 用 户 ， 数 

据 的 使 用 和 评价 仍然 很 重要 ， 但 用 户 还 会 更 倾向 于 依 

赖 数据 内 容 (R=0.31,，p<0.01)。 

4.3.3 不 同 数据 利用 目的 下 描述 项 对 判断 信心 的 影响 
在 本 研究 中 ， 因 用 户 的 专业 性 质 和 研究 方向 不 同 ， 
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表 9 描述 项 重要 程度 与 判断 信心 回归 分 析 


Table 9 Regression analysis of the importance of descriptive items and judgment confidence 


按 数 据 素养 水 平分 类 按 数据 利用 目的 分 类 
描述 信息 结构 总 体 样本 

低 g 高 参考 加 工 
主题 
整体 描述 
来 源 0.164* 0.384** 
范围 
时 间 
物理 特性 
数据 内 容 0.139* 0.275* 0.591* 
使 用 与 评价 0.180* 0.217* 0.257* 0.188* 
与 其 他 信息 的 关联 情况 
数据 产生 信息 0.207*** 0.176* 0.212** 
质量 


* 注 ; * San P<0.05, ** 表示 P<0.01, *** 表示 已 < 0.001 


其 检索 科学 数据 的 目的 或 意图 也 有 所 差异 。 将 检索 到 
的 数据 作为 参考 (例如 作为 研究 背景 、 数 据 对 比 或 数 
据 补 充 ) 的 用 户 ， 影 响 其 判断 信心 的 重要 因素 是 使 用 
与 评价 和 数据 产生 信息 (R=0.26, p«0.01), ， 表 明 他 们 
更 关注 于 数据 产生 过 程 和 被 认可 度 。 将 检索 到 的 数据 
进行 加 工 应 用 的 用 户 ， 则 更 倾向 于 依赖 数据 本 身 
(R?-0.41, p«0.01), ， 在 本 实验 中 ， 该 类 用 户 一 般 通过 
专业 的 数据 共享 平台 获取 数据 ， 例 如 国家 统计 局 、 气 
象 局 、NCBI 等 ， 因 而 很 少 会 质疑 数据 的 权威 性 或 产生 
过 程 ， 更 多 关注 的 是 数据 本 身 是 否 符合 要 求 以 及 数据 
是 否 可 用 。 


5 结论 与 建议 


良好 的 描述 是 科学 数据 高 效 治理 、 传 播 、 发 现 和 
利用 的 必要 前 提 。 不 同 的 描述 信息 组 合 表现 了 不 同 的 
描述 效用 ， 进 而 演化 形成 了 从 “ 零 描 述 ” 到 “充分 描 
述 ” 的 科学 数据 描述 连续 统 。 描 述 信息 的 “结构 - 效 
用 ”关系 是 连续 统 演化 的 理论 基础 和 内 在 逻辑 ， 也 是 
应 对 当前 描述 能 力 不 足 问题 的 良好 进 路 。 本 研究 以 实 
证 方式 识别 了 11 类 42 项 农业 科学 数据 描述 项 及 其 使 
用 特征 ， 确 定 了 高 效用 描述 项 与 描述 项 组 合 ， 并 确定 


| 66 | 2022 年 第 34 卷 第 10 期 


了 用 户 数 据 素养 和 数据 利用 目的 是 影响 描述 信息 效用 
的 两 个 关键 变量 及 其 影响 。 
本 研究 根据 用 户 使 用 频次 ， 得 到 发 挥 主要 作用 的 


农业 科学 数据 描述 项 包括 主题 、 数 据 内 容 、 整 体 描述 、 
来 源 和 数据 产生 信息 5 个 类 别 。 与 农业 科学 数据 核心 
元 数据 标准 吧 进 行 对 比 发 现 ， 在 现 有 标准 中 ， 对 于 主 
题 、 整 体 描述 和 来 源 信 息 的 描述 较为 充分 ， 但 数据 产 
生 信息 仅 作 为 数据 质量 模块 中 的 一 个 非 必 选项 出 现 ， 
数据 内 容 类 别 中 的 描述 项 则 未 有 体现 。 两 者 之 间 的 差 
异 为 农业 科学 数据 元 数据 的 完善 提供 了 一 些 方向 。 例 


如 ， 可 考虑 增设 描述 数据 集 内 容 的 元 数据 模块 ， 包 含 


表 头 、 图 表 横 纵 坐 标 、 结 论 性 数值 等 易于 提取 且 能 够 


以 标准 化 形式 呈现 的 描述 项 。 特 别 是 对 于 结构 化 的 数 


据 集 而 言 ， 创 建 该 模块 可 使 用 户 对 其 形成 更 加 直观 的 


了 解 。 此 外 ， 还 应 加 大 数据 产生 信息 的 描述 力度 ， 可 
为 其 单独 设置 一 个 元 数据 模块 并 提供 更 加 细 化 的 元 数 


据 元 素 o 


对 于 科学 数据 共享 平台 ， 建 议 将 用 户 使 用 率 高 的 


描述 项 优先 呈现 并 确保 其 完整 性 和 准确 性 ， 将 具备 高 
效用 的 描述 项 放置 在 明显 位 置 并 考虑 更 优化 的 呈现 方 


式 。 例 如 可 提供 诸如 数据 快照 、 关 键 图 表 的 缩 略 图 等 
直观 反映 数据 集 内 容 的 描述 信息 、 提 供 数 据 评价 或 数 
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据 评分 、 特 定时 间 范 围 内 的 下 载 量 或 引用 量 , 例 如 近 
一 周 内 、 近 一 个 月 内 、 近 一 年 内 等 。 此 外 ， 可 将 用 户 
关注 度 较 低 的 描述 项 进行 折 秋 以 突出 关键 信息 ， 有 助 
于 建立 用 户 友 好 型 的 数据 共享 平台 。 

本 研究 在 一 定 意义 上 为 传统 上 开展 的 、 实 践 主 时 
的 元 数据 研究 和 数据 论文 研究 提供 了 一 个 认 知 导向 的 
整合 框架 ， 可 为 数字 环境 下 科学 数据 元 数据 和 新 型 描 
述 形式 发 展 提供 理论 参考 和 指导 。 但 本 文 仍 存在 一 定 
局 限 性 ， 研 究 的 样本 群体 均 是 来 自 于 农业 领域 的 硕 博 
研究 生 ， 在 其 他 学 科 领 域 和 其 他 用 户 群 体 中 缺乏 代表 
性 。 其 次 ， 本 研究 识别 出 的 用 户 所 关注 和 使 用 的 描述 
项 是 对 实验 环境 的 反映 和 适应 。 当 我 们 提供 给 用 户 其 
他 的 描述 信息 时 ， 结 果 可 能 会 发 生 一 些 改变 。 因 此 ， 
未 来 这 项 研究 需要 在 更 大 规模 的 不 同人 群 中 反复 进行 ， 
且 应 在 不 同 的 任务 情境 中 进一步 调查 。 
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16. 


Structure-Utility of Descriptive Information of Agricultural Scientific Data 
from the Perspective of Users 


FAN Zhixuan', WANG Jian!, SA Xu!, ZHANG Guilan? 
(1. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 10008; 


2. Institute of Scientific and Technical Information of China, Beijing 100038) 


Abstract: [Purpose/Significance] This paper aims to study the structure-utility relationship of descriptive information of scientific data to 
provide a new perspective for the theoretical study of scientific data description and a reference for the best description of agricultural 
scientific data in the digital environment. [Method/Process] Based on information processing theory, the lens model, the probabilistic 
mental model theory and the adaptive decision-making behavior framework, the relationship model between descriptive information 
structure and informing utility was constructed. A situational experiment was designed according to the model. In this study, 47 
postgraduates from 14 institutes were invited for quasi-experimental observation by using qualitative and quantitative methods such as 
eye-tracking, semi-structured interview and questionnaire. First, this study used a semi-structured interview to obtain a user's cognitive 
interpretation of fixation points and collected the descriptive items of agricultural scientific data and their use frequency by encoding the 
interview text. Second, this study combined descriptive item usage path coding and user judgment confidence to obtain the combination 
of descriptive items with high utility. Finally, the study used multiple regression analysis to identify the descriptive items with high utility 
and their predictive ability, and analyzed the impact of data literacy and data utilization type on the utility of descriptive items. 
[Results/Conclusions] The study identified 42 descriptive items of 11 categories of agricultural scientific data and their usage 
characteristics. Among them, the top 5 frequently used descriptive items were subject, data, overall description, source and data 
production information, which played an important role in user relevance judgment. Then this study identified the combination of 
descriptive items with high utility and found that users' use patterns of descriptive items were diverse. Compared with making a 
judgment with "relevant" result, users often needed less information to achieve a high level of confidence when making an "irrelevant" 
judgment. This study also found that the descriptive items with high utility include source, data, use and evaluation, and data production 
information. It is determined that user data literacy and data utilization purpose were the influencing factors of descriptive information 
utility, and the effects of the two factors were preliminarily analyzed. Based on this research, the paper put forward some suggestions for 
improving agricultural scientific data metadata and scientific data sharing. In the future, this study will be repeated in groups with 
different academic backgrounds and data literacy levels, so as to enhance the generalization ability of research conclusions and construct 
a more effective structure of scientific data descriptive information. 


Keywords: scientific data; data description; metadata; information utility; eye-tracking 
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